R para Ciencia de Datos en Salud:
Análisis Descriptivo e Inferencia Estadística
Percy Soto-Becerra M.D., M.Sc(c)
InkaStats Data Science Solutions | Medical Branch
@github/psotob91
medida de posición)tendencia central)
Para una variable de interés \(X\), se tiene la muestra conformada por \(n\) elementos \(x_1, x_2, x_3, ..., x_n\) entonces podemos resumir esta muestra de valores mediante los siguientes estadísticos:
Media aritmética: \(\bar{x}\)
Media geométrica: \(\bar{x}_g\)
Otras medias: truncada y armónica
Mediana: \(Med(x)\)
Moda: \(Moda(x)\)
Percentiles: \(P25\) y \(P75\)
Cuartiles: \(Q1\), \(Q2\) y \(Q3\)
Varianza y desviación estándar: \(Var(x)\) y \(DE(x)\)
Rango
Rango intercuartílico: \(RIQ\)
Coeficiente de variación: \(CV\)
\[\bar{x} = \frac{x_1 + x_2 + x_3 + ... + x_n}{n} = \frac{\sum_{i = 1}^{n}x_i}{n}\]
Ejemplo
Sean las siguientes edades en años: \(36, 4, 75, 45, 50\), su media aritmética es
\[\frac{36 + 4 + 75 + 45 + 50}{5} = \frac{210}{5} = 42\]
Forma de promedio útil para conjuntos de números positivos que se desean interpretar de acuerdo a su producto en vez de su suma.
Es la raíz \(n-ésima\) del producto de los números y está dada por la siguiente expresión:
\[\bar{x}_{g} = \sqrt[n]{x_1x_2x_3...x_n} = (x_1x_2x_3...x_n)^{\frac{1}{n}} = (\prod_{i = 1}^{n}x_i)^{\frac{1}{n}}\]
Ejemplo
Sean las siguientes edades en años: \(36, 4, 75, 45, 50\), su media geométrica es
\[(36 \times 4 \times 75 \times 45 \times 50) ^ {\frac{1}{5}} = \sqrt[5]{24300000} = 30\]
Media truncada
Media truncada o recortada (en inglés trimmed mean) es una medida de tendencia central similar a la media aritmética que se calcula luego de descartar las partes de ambos extremos de la distribución.
Típicamente se descartan las mismas proporcions de datos en los extremos.
En la mayoría de aplicaciones se descartan entre 5% a 25%.
En algunas regiones también la conocen como media windsoriana.
La usan mucho en eventos de competición para eliminar la influencia de las calificaciones extremas de los jueces
Media armónica
Es un tipo de medida promedio conocida por ser una de las medias pitagóricas.
Se expresa como el recíproco de las medias aritméticas de los recíprocos de un conjunto dado de observaciones.
\[H = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + ... + \frac{1}{x_n}} = \frac{n}{\sum_{i=1}^{n}{\frac{1}{x_i}}} = (\frac{\sum_{i=1}^{n}x_i^{-1}}{n})^{-1} \]
\[ Med(x) = \begin{cases} x_{(n+1)/2} & \text{si n es impar} \\ \frac{x_{(n/2)}+x_{(n/2+1)}}{2} & \text{si n es par} \end{cases} \]
Ejemplo
Luego de ordenar de menor a mayor, tenemos \(4, 36, 45, 50, 75\). Como \(n = 5\) es impar, entonces
\[Med(x) = x_{(5+1)/2} = x_{(3)} = 45\]
Es el valor que aparece más frecuentemente en los datos.
No necesariamente es única.
Unimodal
Multimodal
Multimodal extremo: Uniforme
En resumen, la visualización geométrica de la media, mediana y moda para una distribución unimodal es la siguiente.
Moda: Valor más frecuente (punta más alta de distribución)
Mediana: Valor que divide datos en 50% (mitad de la distribución)
Media: Centro de gravedad (punto en el que los “pesos” de ambos lados se igualan)
Funciones
Funciones de R base:
mean()
mean(…, trim = …)
median()
Funciones extras a R base:
Datos para los cálculos
Media aritmética
Media geométrica
Media truncada
Mediana
Son los valores que funcionana como puntos de corte para dividir el rango de datos en intervalos continuos con igual frecuencia.
El \(k-ésimo\) \(q-cuantil\) es el valor de los datos donde su función de distribución acumulada cruza \(k/q\).
Es decir, \(x\) es el \(k-ésimo\) \(q-cuantil\) para una variable \(X\) si:
\[Pr[X < x] \leq k/q\]
\[Pr[X \leq x] \geq k/q \]
El nombre del cuantil depende de cuántos grupos se forman.
La cantidad de cuantiles es siempre 1 menos.
Hay una lista bastante grande de cuantiles.
Los más famosos son:
| Q-cuantil | Nombre del cuantil | Número de grupos iguales | Número de cuantiles |
|---|---|---|---|
| 2-cuantil | Mediana | 2 | 1 |
| 3-cuantil | Terciles | 3 | 2 |
| 4-cuantil | Cuartiles | 4 | 3 |
| 5-cuantil | Quintiles | 5 | 4 |
| 6-cuantil | Sextiles | 6 | 5 |
| 7-cuantil | Septiles | 7 | 6 |
| 8-cuantil | Octiles | 8 | 7 |
| 10-cuantil | Deciles | 10 | 9 |
| 12-cuantil | Dodeciles | 12 | 11 |
| 16-cuantil | Hexadeciles | 16 | 15 |
| 20-cuantil | Ventiles | 20 | 19 |
| 100-cuantil | Percentiles | 100 | 99 |
| 1000-cuantil | Permiles o Mililes | 1000 | 999 |
Los cuartiles dividen los datos en cuatro partes iguales
Los gráficos de cajas utilizan los cuartiles para realizar el dibujo de los elementos de la caja.
Los percentiles dividen los datos en 100 partes iguales
Se usan para construir infinidad de estadísticos:
En inferencia estadística, se usan para establecer
Funciones
Funciones de R base:
Datos para los cálculos
Cuartiles
Percentiles
0% 1% 2% 3% 4% 5% 6% 7% 8% 9% 10% 11% 12%
6.00 6.05 6.10 6.15 6.20 6.25 6.30 6.35 6.40 6.45 6.50 6.55 6.60
13% 14% 15% 16% 17% 18% 19% 20% 21% 22% 23% 24% 25%
6.65 6.70 6.75 6.80 6.85 6.90 6.95 7.00 7.05 7.10 7.15 7.20 7.25
26% 27% 28% 29% 30% 31% 32% 33% 34% 35% 36% 37% 38%
7.30 7.35 7.40 7.45 7.50 7.55 7.60 7.65 7.70 7.75 7.80 7.85 7.90
39% 40% 41% 42% 43% 44% 45% 46% 47% 48% 49% 50% 51%
7.95 8.00 8.05 8.10 8.15 8.20 8.25 8.30 8.35 8.40 8.45 8.50 8.55
52% 53% 54% 55% 56% 57% 58% 59% 60% 61% 62% 63% 64%
8.60 8.65 8.70 8.75 8.80 8.85 8.90 8.95 9.00 9.05 9.10 9.15 9.20
65% 66% 67% 68% 69% 70% 71% 72% 73% 74% 75% 76% 77%
9.25 9.30 9.35 9.40 9.45 9.50 9.55 9.60 9.65 9.70 9.75 9.80 9.85
78% 79% 80% 81% 82% 83% 84% 85% 86% 87% 88% 89% 90%
9.90 9.95 10.00 10.10 10.20 10.30 10.40 10.50 10.60 10.70 10.80 10.90 11.00
91% 92% 93% 94% 95% 96% 97% 98% 99%
11.10 11.20 11.30 11.40 11.50 11.60 11.70 11.80 11.90
Medida de la cantidad de variación o dispersión de los datos.
Es la raíz cuadrada de la varianza.
Está en las mismas unidades que la variable.
Fórmula:
Sea \(\bar{x}\) la media de los \(n\) datos \(x_1, x_2, ..., x_n\), entonces la varianza está definida por:
\[Var(x) = \frac{\sum_{i = 1}^{n}{(x_i - \bar{x})^2}}{n - 1} \]
Entonces, la desviación estándar de la muestra es:
\[ DE(x) = \sqrt[]{Var(x)} \]
Es el tamaño del intervalo más pequeño que contiene a todos los datos.
Diferencia entre el valor mínimo y máximo.
Fórmula
\[ Rango = min(X) - max(X) \]
Medida de la cantidad de variación de los datos.
Es la diferencia entre los percentiles 75 y 25 de los datos.
Contiene el 50% central de los datos.
El ancho de la caja de un gráfico de cajas es el IQR.
Fórmula:
\[ RIQ = Percentil~75 - Percentil~25 \]
Manualmente
Podemos almacenar los resultados en objetos
También conocido como desviación estándar relativa.
Medida estandarizada de dispersión expresada como porcentaje.
Es la razón de la desviación estandar sobre la media y mide la extensión de la variabilidad en relación a la media
\[ CV = \frac{DE(x)}{\bar{x}} \]
Manualmente
Media:
DE:
CV en %
Usando función
No función específica disponible.
Existe en funciones que generan varias variables de resumen.
Media y mediana no son dos medidas que deban entrar en disputa.
Ambas cuentan dos historias complementarias sobre el “centro” de los datos.
Ambas representan a los datos a su manera.
Piensa en lo que quieres hacer
¿Quiero describir mis datos con el “mejor representante” posible?
Recuerda el mantra: "Media es más sensible a valores extremos". La distribución de los datos puede ayudar a elegir.
Distribuciones sesgadas: La mediana y medidas de posición suelen representar mejor los datos en términos descriptivos.
Distribuciones simétricas: Mediana y media son buenas, la media se prefiere por sus propiedades estadísticas e interpretación intuitiva.
¿Quiero comparar medidas de tendencia central para inferir efectos?
La media es una buena candidata, sean las distribuciones sesgadas o no.
La mediana no es una mala candidata, sin embargo, sus propiedades estadísticas y menor teoría desarrollada limitan actualmente su uso.
¿Quiero usar una medida de resumen para establecer predicciones?
La media es una de las más usadas, sean las distribuciones sesgadas o no.
La mediana tiene teoría menos desarrollada, pero existen algunas aplicaciones.
¿Tenemos que elegir?No, no tenemos que elegir!!
En ensayos clínicos es preferible reportar ambos es más transparente y proporciona más información.
limitaciones de espacio y tablas en cuerpo del artículo, se suele reportar en anexos.hacer lo mismo en estudios observacionales.Tengo limitaciones de espacio y debo elegir una medida en la tabla principal:
Elige la opción que mejor se adecue a tu objetivo: describir, explicar, predecir.
RECUERDA: Pon en anexos las demás medidas. Es información que podría ser útil para otros fines (p. ej., para calcular tamaño de muestra, evaluar comparabilidad de poblaciones, etc.)
Si objetivo es DESCRIBIR…
Siempre reporte máximo y mínimo, preferentemente en tabla principal o texto.
Es mejor que rango, provee más información.
Si problemas de espacio, usar tabla anexa.
Media +/- Desviación estándar
simétrica y variabilidad es relativamente baja.Mediana (percentil 25 - percentil 75)
asimétrica o variabilidad es relativamente alta.percentiles 25 y 75 en vez de rango intercuartílico (más informaciónde los primeros)Hay varias opciones en R.
Las más personalizables se basan en {R base} y {dplyr} (funciones summarise()), pero requieren más código.
Usar estas si se necesitan elaborar tablas ad hoc para reportes repropducibles muy sui generis.
También son necesarias para gráficos en {ggplot2}
Las opciones que requieren poco código y son directas tienen el problema de que no son personalizables:
{summarytools}
{DescTools}
{Hmisc}
Usar estas si solo se requiere inspeccionar los datos pero no se hará ningún reporte reproducibl sui generis.
El problema con R base es que solo permite generar medidas de resumen una a la vez.
Cuando inspeccionamos datos o los describimos necesitamos hacerlo con varias variables simultáneamnente.
Podemos hacerlo con otras funciones de R.
Hay muchas opciones, veremos algunas que se sustentan en R tidy
Varios estadísticos pueden obtenerse
Varias variables pueden analizarse
bd_inmuno %>%
summarise(
`Media de edad` = mean(edad),
`DE de edad` = sd(edad),
`Mediana de edad` = median(edad),
Mediana_IgG_Final = median(IgG_Basal, na.rm = TRUE),
RIQ_IgG_Final = IQR(IgG_Basal, na.rm = TRUE)
)# A tibble: 1 × 5
`Media de edad` `DE de edad` `Mediana de edad` Mediana_IgG_Final RIQ_IgG_Final
<dbl> <dbl> <dbl> <dbl> <dbl>
1 48.2 14.7 46 28.3 88.2
Una sola variable numérica
Todas las variables numéricas
Descriptive Statistics
bd_inmuno
N: 285
edad id IgG_Basal IgG_Final tdosis_refuerzo
----------------- -------- -------- ----------- ----------- -----------------
Mean 48.25 143.00 82.54 492.26 214.47
Std.Dev 14.71 82.42 122.33 71.15 25.28
Min 23.00 1.00 -2.19 235.51 134.00
Q1 36.00 72.00 8.13 447.18 199.00
Median 46.00 143.00 28.33 501.20 222.00
Q3 59.00 214.00 96.61 545.15 235.00
Max 97.00 285.00 583.97 618.44 267.00
MAD 17.79 105.26 36.80 70.13 22.24
IQR 23.00 142.00 88.17 97.97 36.00
CV 0.30 0.58 1.48 0.14 0.12
Skewness 0.44 0.00 2.14 -0.73 -0.87
SE.Skewness 0.14 0.14 0.14 0.14 0.14
Kurtosis -0.39 -1.21 3.92 0.44 -0.08
N.Valid 285.00 285.00 284.00 285.00 285.00
Pct.Valid 100.00 100.00 99.65 100.00 100.00
Solo algunas variables numéricas
Descriptive Statistics
bd_inmuno
N: 285
edad IgG_Basal
----------------- -------- -----------
Mean 48.25 82.54
Std.Dev 14.71 122.33
Min 23.00 -2.19
Q1 36.00 8.13
Median 46.00 28.33
Q3 59.00 96.61
Max 97.00 583.97
MAD 17.79 36.80
IQR 23.00 88.17
CV 0.30 1.48
Skewness 0.44 2.14
SE.Skewness 0.14 0.14
Kurtosis -0.39 3.92
N.Valid 285.00 284.00
Pct.Valid 100.00 99.65
Modo R base
Más información sobre el análisis de variables numéricas con…
Tablas para epi: https://epirhandbook.com/en/descriptive-tables.html
{dplyr}: https://dplyr.tidyverse.org/reference/group_by.html
{janitor}: http://sfirke.github.io/janitor/articles/tabyls.html
{summarytools}: https://htmlpreview.github.io/?https://github.com/dcomtois/summarytools/blob/master/doc/introduction.html
La media aritmética es una medida que trata de resumir los datos de una variable numérica en un solo valor.
Propiedad interesante: Es la medida que más cerca está de todos los datos.
“La edad media fue de 34 años (…)”
Ejemplo
El promedio de estas notas es 16.
Cada nota se desvía del promedio en lo siguiente:
| notas | promedio_notas | desvio_notas | desvio_promedio |
|---|---|---|---|
| 15 | 16 | -1 | 0 |
| 20 | 16 | 4 | 0 |
| 17 | 16 | 1 | 0 |
| 12 | 16 | -4 | 0 |
Mediana
“La mediana de edad fue de 35 años (…)”
“La mitad de los participantes tuvieron niveles de
hemoglobina por debajo de 10.2 mg/dl (…)“
Percentiles 25 y 75
“La mediana de edad fue de 35 años
(20 años - 54 años) (…)“
“El 25% de los participantes tuvieron menos de 20
años y el 75% menos de 54 años (…)“
Varianza
No se suele interpertar.
Debido a que está en unidades al cuadrado no se suele reportar, se prefiere a la desviación estándar.
Desviación estándar
No se suele interpretar, solo reportar.
Lo que implica que su interpretación/significado es tácito.
Es la medida de dispersión que acompaña por defecto a la media:
“La edad media (desviación estándar) fue de 35
años (23 años) (…)“
Rango
Es preferible reportar los valores mínimo y máximo.
A menudo se parafrasea:
“La edad media (desviación estándar) fue de 35
años (23 años) y varió entre 19 y 54 años (…)“
Rango intercuartílico
Es preferible reportar el percentil 25 y 75, no la diferencia: Da más información.
Se parafrasea como el ejemplo de los percentiles 25 y 75.
También se puede parafrasear de la siguiente manera:
“La mediana de edad fue de 35 años
y la mitad de los participantes tuvo
entre 20 años y 54 años (…)“
Coeficiente de variación
Cuando se reporta, no se suele interpretar (es tácito).
Sin embargo, podemos hacer una valoración ‘cualitativa’ del valor para algun interpretación.
Algunas reglas del pulgar (según INEI, Perú):
Descargue la carpeta var_num_resumen.
Abra el proyecto var_num_resumen.Rproj y dentro de este, abra el archivo quarto var_num_resumen_taller.qmd.
Siga las instrucciones indicadas en este.
Renderice el archivo quarto final.
10:00
Variables numérica: Medidas de resumen